智能论文笔记

Ground then Navigate: Language-guided Navigation in Dynamic Scenes

Kanishk Jain , Varun Chhangani , Amogh Tiwari , K. Madhava Krishna , Vineet Gandhi

分类：计算机视觉

2022-09-24

我们在室外环境中自动驾驶的背景下研究了视觉和语言导航（VLN）问题。我们通过明确接地与Textual命令相对应的可通道区域来解决问题。在每个时间戳，该模型预测与中间或最终可通道区域相对应的分割掩码。我们的工作与VLN中的现有工作形成鲜明对比，VLN的现有工作将该任务置于节点选择问题，并且给定与环境相对应的离散连接图。我们不假定这种离散的地图的可用性。我们的工作朝着动作领域的连续性发展，通过视觉反馈提供了解释性，并允许在需要更精细的操作的命令上进行VLN，例如“两辆汽车之间的停车”。此外，我们提出了一种新型的元数据carla-nav，以允许有效的训练和验证。该数据集包括预录制的培训序列以及用于验证和测试的实时环境。我们提供广泛的定性和定量经验结果，以验证所提出的方法的功效。

translated by 谷歌翻译

Grounding Linguistic Commands to Navigable Regions

Nivedita Rufus , Kanishk Jain , Unni Krishnan R Nair , Vineet Gandhi , K Madhava Krishna

分类：计算机视觉 | 机器人

2021-12-24

人类有自然能够毫不费力地理解语言指挥，如“黄色轿车旁边的公园”，本能地知道车辆的道路的哪个地区应该导航。扩大这种对自主车辆的能力是创建根据人类命令响应和行动的完全自治代理的下一步。为此，我们提出了通过语言命令引用可导航区域（RNR），即导航的接地区域的新任务。 RNR与引用图像分割（RIS）不同，该图像分割（RIS）侧重于自然语言表达式而不是接地导航区域的对象接地。例如，对于指令“黄色轿车旁边的公园，”RIS将旨在分割推荐的轿车，而RNR旨在将建议的停车位分段在道路上分割。我们介绍了一个新的DataSet，talk2car-regseg，它将现有的talk2car数据集扩展，其中包含语言命令描述的区域的分段掩码。提供了一个单独的测试拆分，具有简明的机动指导命令，以评估我们数据集的实用性。我们使用新颖的变换器的架构基准测试所提出的数据集。我们呈现广泛的消融，并在多个评估指标上显示出卓越的性能。基于RNR输出产生轨迹的下游路径规划器确认了所提出的框架的功效。

translated by 谷歌翻译

Analysis of Model-Free Reinforcement Learning Control Schemes on self-balancing Wheeled Extendible System

Kanishk . , Rushil Kumar , Vikas Rastogi , Ajeet Kumar

分类：机器人

2021-11-16

在许多机器人和工业应用中，传统的线性控制策略已经广泛研究和使用，但它们不应响应系统的总动态，以避免对非线性控制等非线性控制方案的繁琐计算，加强学习的预测控制应用可以提供替代解决方案本文介绍了在移动自拍的深度确定性政策梯度和近端策略优化的情况下实现了RL控制的实现，在移动自拍伸直倒立摆片EWIP系统这样的RL模型使得找到满意控制方案的任务更容易，并在自我调整时有效地响应动态。在本文中提供更好控制的参数，两个RL基础控制器被针对MPC控制器捕获，以基于EWIP系统的状态变量进行评估，同时遵循特定的所需轨迹

translated by 谷歌翻译

Bringing Generalization to Deep Multi-view Detection

Jeet Vora , Swetanjal Dutta , Kanishk Jain , Shyamgopal Karthik , Vineet Gandhi

分类：计算机视觉

2021-09-24

多视图检测（MVD）对于拥挤环境中的遮挡推理非常有效。虽然最近使用深度学习的作品在该领域取得了重大进展，但它们已经忽略了泛化方面，这使得它们\ emph {现实世界部署不切实际。我们工作的关键新颖性是\ emph {形式化}三种临界形式的普遍化和\ emph {建议实验来评估它们}：泛化与i）不同数量的相机，ii）变化的相机位置，最后，iii）到新场景。我们发现现有的最先进的模型通过对单个场景和相机配置过度提供了较差的概括。为了解决问题：（a）我们提出了一种新颖的通用MVD（GMVD）数据集，同时使用变化的日间，相机配置，不同数量的相机以及（B）来吸收多样化的场景，以及（B）我们讨论了对MVD带来概括的属性并提出一个鞍座模型融合它们。我们在WildTrack，MultiviewX和GMVD数据集上执行一套全面的实验，以激励评估MVD方法的概括能力，并证明所提出的方法的功效。可以在\ url {https：github.com/jeetv/gmvd}中找到代码和建议的数据集

translated by 谷歌翻译

Comprehensive Multi-Modal Interactions for Referring Image Segmentation

Kanishk Jain , Vineet Gandhi

分类：计算机视觉

2021-04-21

我们研究了参考图像分割（RIS），该图像分割（RIS）输出与自然语言描述相对应的分割图。有效地解决RIS需要考虑发生\ emph {跨}视觉和语言模态以及每种模态的交互。现有方法受到限制，因为它们要么计算不同形式的交互作用\ emph {secentally}（导致错误传播）或\ emph {nighore}。我们通过通过同步多模式融合模块（SFM）执行所有三个交互\ emph {同时}来解决此限制。此外，为了产生精致的分割面膜，我们提出了一种新型的层次交叉模式聚合模块（HCAM），其中语言特征有助于在整个视觉层次结构上交换上下文信息。我们介绍了彻底的消融研究，并在四个基准数据集上验证方法的性能，显示出对现有最新方法（SOTA）方法的性能增长。

translated by 谷歌翻译

Baby Intuitions Benchmark (BIB): Discerning the goals, preferences, and actions of others

Kanishk Gandhi , Gala Stojnic , Brenden M. Lake , Moira R. Dillon

分类：人工智能 | 机器学习

2021-02-23

为了实现对日常生活的人类常识，机器学习系统必须理解和理解环境中其他代理人的目标，偏好和行动。在他们的第一年的生命结束时，人类婴儿直观地实现了如此常识，这些认知成就为人类丰富而复杂地了解他人的心理状态。Can Machines可以实现更广泛的，致辞推理对人类婴儿这样的其他药剂吗？婴儿直觉的基准（围兜）挑战机器，以预测代理人行为的合理性，基于其行动的基本原因。由于BIB的内容和范式从发育认知科学中采用，因此BIB允许在人类和机器性能之间直接比较。尽管如此，最近提出的深度学习的机构推理模型未能表现出婴儿的推理，让围兜成为一个开放的挑战。

translated by 谷歌翻译